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own VLSI (very large scale integra- 


a foolproof design for an IBM PC AT com- 
patible on a chip, but no one will take you 
seriously until you show them a working 
sample? Maybe you're in luck. The Syracuse 
Al coprocessor chip was actually fabricated 
through MOSIS (MOS Implementation Sys- 
tem), a brokerage that connects chip and 
board designers with chip and board fab- 
ricators. MOSIS is an outgrowth of both the 
Arpanet and an idea from Xerox's Palo Alto 
Research Center (PARC). If you follow the 
MOSIS rules and:can afford the prices, your 
chip could be sitting on your desk just a few 
months from today. 

Before VLSI was more than a twinkle in 
nyone'’s eye, the defense department's 
RPA (Advanced Research Projects Agency) 
t up ARPANET. a computer network that 
connected a number of universities and 
defense contractors, Later, ARPA changed 


to DARPA (Defense Advanced Research 


rojects Agency), but the network retained 
its original name. 

In 1980, Xerox PARC offered to organize 
VLSI fabrication services for the ARPANET 
community. The PARC researchers knew 
that university engineering and computer 
science departments were getting shut out 
of much of the microelectronics revolution 
because they couldn't afford the equipment 
necessary to manufacture silicon chips. 
Even those universities that could afford 
some equipment could never keep up with 
the rapidly advancing state of the art. VLSI 
students and professors had been reduced 
to designing chips on paper and then see- 
ing those designs languish in libraries. 

At the same time, many chip manufac- 
turers in Silicon Valley were fretting over 
their unused manufacturing capabilities. 
The best way to pay off millions of dollars 
of wafer-fabrication equipment is to run it 
as much as possible and the manufacturers 
had more idle machine time than they 
wanted. 
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"While a single batch of wafers is too ex- 
pensive for a university to buy, the engi- 
neers at Xerox PARC figured that if enough 
designs could be gathered together and 
made on a single wafer-fabrication run, the 
price per design would be affordable. 
Besides, while designers would be delighted 
to see their creations become hardware, the 
manufacturers would be thrilled to make 
some extra money with their equipment. 
Another advantage for the chip makers was 
that students would graduate with some 
hands-on chip-design experience. 

So Xerox PARC invited the DARPA com- 
munity to send in chip designs that Xerox 
would then organize into wafer runs. The 
first run was a bunch of. student designs 
from a VLSI course taught by Lynn Conway 
in 1978 at MIT. The first masks were made 
by Micro Mask and the first run was 
fabricated at Hewlett-Packard’s Deer Creek 
Road facility. The service was immediately 
successful and DARPA wanted to see it con- 
tinue, but Xerox didn’t want permanent re- 
sponsibility. The Information Processing 
Techniques division of DARPA had a VLSI 
design research program and was an 
ARPANET node. DARPA let ISI (Information 
Sciences Institute) take over from Xerox and 
called the new service MOSIS. Although 
chip designs were initially only accepted 
from the DARPA community, other groups 
were gradually added to the fold. First the 
NSF (National Science Foundation), then 
any government organization with DARPA 
permission, and finally, practically anyone 
was permitted to submit VLSI! designs. 

MOSIS puts out a schedule of the wafer- 
fabrication runs for six months into the 
future. Those scheduled runs will be made 
even if too few designs show up to fill the 
wafers (the extra space will be devoted to 
test structures). That commitment assures 
designers that they can plan around fabrica- 
tion dates and allows wafer-fabrication fac- 
tories to schedule equipment time. How- 
ever, demand has been so great that the 
(continued) 
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DSP di carattere generale 
e Filtraggio digitale 

® Correlazione 

@ Finestratura 

© FFT. 

e Filtraggio adattativo 

@ Generazione di forme d’onda 
@ Elaborazione vocale — 

® Elaborazione radar/sonar 

@ Elaborazione sismica 

® Trasformata di Hilbert 


Telecomunicazioni 

@ Data scrambling 

e Telemetria . | 

@ Equalizzatori adattativi 

@ Comunicazione 

® Modem alta velocita 

® Criptografia e scrambling ©. >. 

® Modulazione/demodulazione — 

© Compressione dati 

e DTMF 

® Conversione WA LAW : 4 
@ Cancellazione d’eco : aie pe 
e Transcodificatori = 


Elaborazione vocale 

® Voice mail 

@ Sintesi vocale 

® Riconoscimento vocale 

@ Analisi vocale. - 
® Vocoding 
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: Tabella 1 - Campi applicativi del DSP. 
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si spettrale, il filtraggio e la correlazio- 
ne. Le altre applicazioni spesso si av- 
valgono in modo diretto o indiretto di 
tali processi fondamentali. 

Quando I’unita di elaborazione viene 
realizzata con veloci circuiti integrati 
VLSI, molti sono i vantaggi che ne 
derivano. Ad esempio il digital signal 
processing € estremamente piu accu- 
rato, per l’intrinseca precisione del 
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processo di digitalizzazione e per l’as- 
senza del rumore di sistema. Infatti 
‘unico rumore nei sistemi digitali é 
dovuto al processo di conversione 
analogico-digitale ed agli arrotonda- 
menti numerici; come e noto pero tale 
rumore puo essere facilmente control- 
lato e tenuto sotto i limiti desiderati. |! 
digital signal processing é praticamen- 
te insensibile alle variazioni di tempe- 
ratura che possono subire i circuiti e 
puo raggiungere dinamiche elevatissi- 
me; soprattutto é altamente ripetibile. 
Solo qualche anno fa, i processon 
digitali di segnale erano grossi sistemi 
di calcolo realizzati essenzialmente 
con numerose schede di logica bipola- 
re ad elevatissima dissipazione. Loro 
caratteristica fondamentale era un co- 
sto molto alto e una potenza computa- 
zionale relativamente elevata. 

I circuiti integrati per digital signal 
processing hanno praticamente ab- 


-bandonato la classica architettura von 


Neumann caratteristica dei micropro- 
cessori tradizionali, per adottarne di 
pit efficienti sia in termini di parallel 
processing che di pipelining: si parla 
ad esempio di architettura Harvard e 
architettura Sistolica. 

L’enorme varieta di soluzioni disponi- 
bili (single chip, blocchi costruttivi di 
base, fixed-point, floating-point, cu- 
stom, semicustom e general purpou- 
se) hanno fatto espandere enorme- 
mente il mercato tanto che dal totale 
vendite di 180 milioni di dollari del 
1983 si @ passati ai 330 milioni di 
doljari nel 1984. 

In pratica i] mercato era dominato 
essenzialmenie dalle scluzioni cosid- 
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| Tabella 2 — Prestazioni dei pid avanzati DSP monolitici. 
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National NEC Texas Instr. . Analog Dev. Philips Fujitsu 
Operazione LM 32900 uPD 77230 TMS 320C25 ADSP-2100 DSP 8764 
| JU24 complex-point FFT 13.42 ms 11.25 ms — 7.2 ms — _ 
{512 complex-point FFT _ 4.5 ms -- — — 900 ps 
| 2) complex-point FFT 29ms 7 3.44 ms — 2.112 ms -- 
| 236 tap fir tilter 37.8 kHz -- 37 kHz 8.0 us - 26 us 
| 64 tap fir filter — — _ —- ' S25 us —_— 
32 tap fir filter _ 5.1 ps — — -- _ 
Filtro biquad IIR 0.9 us 0.9 us 1 jus 0.88 us — *. 0,625 ps 0.7 us 
Moltiplicazione di [1x3] [3x3] - “= [1x3] [3x3] (10x10) — | —_ 
: | Mmatrice 2 us . 2.7 us 0.22 ms 
, | Radice quadrata — _ 6.0 ps — — — — 
Divisione — 4.8 us _— — — a 
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dette building block VLSI o byte-slice 
introdotte inizialmente da AMD e 
TRW, poi seguite dalla Analog Devi- 
ces nella versione word-slice. Queste 
soluzioni, seguendo la filosofia bit- 
slice, consistevano essenzialmente di 
moltiplicatori veloci fixed-point, mi- 
croprogram sequencer, pipeline regi- 
ster, ecc. Particolare impulso é@ stato 
conferito dall’introduzione da parte di 
TRW e Weitek dei moltiplicatori floa- 
ting-point su singolo chip. Contem- 
poraneamente crescevano i digital si- 
gnal processor monolitici, introdotti 
per la prima volta nel 1978 da AMI 
(S2811) seguita nel 1979 da Intel (2920/ 
21) e nel 1980 da NEC (7720). 
Inizialmente interessanti solo per il 
mercato delle telecomunicazioni, i di- 
gital signal processor monolitici han- 
no allargato il loro mercato ad altre 
aree (tabella 1) (sintesi e riconosci- 
mento vocale, coprocessing aritmeti- 
co, controllo di motori, ecc.) soprat- 
iuilo Aopo l’introduzione nel 1982 del 
digital signal processor monolitico 
della Texas Instruments (32010) in 
quanto questo, a differenza dei prece- 
denti, aveva la program memory op- 
zionalmente su RAM oltre che su 
ROM. Risultava quindi pit idoneo ai 
bassi volumi di produzione tipici di 
queste aree applicative. 

Lo stato attuale della tecnologia del 
digital signal processing vede oggi nei 
dispositivi monolitici la soluzione piu 
economica ed allo stesso tempo effi- 
ciente (tabella 2). Caratteristiche prin- 
cipali sono: velocita di esecuzione (di 
complesse istruzioni) dell’ordine dei 
100 ns, aritmetica floating-point, on- 
chip eseguibile nell’ordine dei 100 ns, 
ampi spazi di memoria dati e pro- 
grammi on chip sia RAM che ROM, 
architetture di ALU molto complesse 
(sommatori, moltiplicatori, shifter, ed 
altri organi tutti hardware ed organiz- 
zati secondo uita architviiura pipeline 
e parallela). 
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~ I] pi appariscente dei progressi com- 


piuti in cosi pochi anni dai DSP sta 
nella rapida riduzione del tempo di 
ciclo istruzione. Si € passati dai 400 ns 
del pionieristico DSP 2920 di Intel, ai 
250 ns del 7720 NEC, quindi ai 200 ns 
del 32010 Texas Instruments, e infine 
ai 100 ns del 32900 National ed del 
8764 Fujitsu. Tale tempo sembra desti- 


' nato a scendere ulteriormente sotto i 


100 ns; Tl prevede tempi di ciclo istru- 
zione al di sotto dei 50 ns per il 1990. 
Pur essendo tanto impressionante la 
diminuzione del tempo di ciclo istru- 
zione, l’elevatissima potenza di calco- 
lo raggiunta dai digital signal proces- 
sor e in larga parte dovuta alle solu- 
zioni architetturali. Infatti l’utilizzo 
sempre piu spinto di concetti come 
l’‘architettura Harvard, il parallel pro- 
cessing e il pipeling, hanno permesso 
da una parte di migliorare ulterior- 
mente il tempo di ciclo senza necessa- 
riamente spingere sulla geometria di 
integrazione, e dall’altra di rendere il 
ciclo istruzione altamente denso di 
operazioni. Per esempio in un ciclo 
istruzione puo essere realizzata una 
moltiplicazione contemporaneamente 
ad un accumulo, ad uno shift ed a 
spostamento di dati in memoria. 
Parallelamente, l’efficienza dei DSP é 
cresciuta grazie alla recente introdu- 
zione dell’aritmetica floating-point on 
chip. Cid non ha rappresentato altro 
che la conclusione di una tendenza gia 
in atto che vedeva la parola di Javoro 
portarsi da 16 a 24 bit per ottenere una 
maggiore dinamica, particolarmente 
necessaria in applicazioni di riconosci- 
mento vocale. 

Il fatto che i digital signal processor 
abbiano assunto un ruolo primario 
nell’attuale scenario delle soluzioni 
per il digital signal processing é dimo- 
strato dal fatto che alla data attuale 
tutte le pit importanti industrie di 
semicondutturi sono impegnate su 
questo fronie (tabella 3): Texas Instru- 


ments, Nec, National, Fujitsu, Hita- 
chi, ITT, Analog Devices, Philips. Al- 
tre possibili industrie impegnate in 
uesto ambito potrebbero essere 
TRW, AMD, Weitek, Fairchild, IDT, 
Lattice Semiconductor, AT&T, Intel, 
Motorola, Siemens e Signetics. Que- 
ste in pratica o entrano per la prima 
volta ora in questo settore o in alcuni 
casi rientrano dopo una precedente 
esperienza ormai abbandonata da 
tempo. 
L’emergere di questa terza generazio- 
ne di digital signal processor monoliti- 
ci offrira certamente ai progettisti 
OEM opportunita equivalenti a quelle 
che si sono avute con |’introduzione 
della seconda generazione dei micro- 


processori (8080, 6502, 6800) negli an- 
ni 70. Inoltre, i digital signal processor 
possono essere visti anche come una 
svolta nella concezione de] micropro- 
cessore. I] digital signal processor é 
infatti un microprocessore particolar- 
mente efficiente e dotato di un set di 
istruzione ridotto (RISC ovvero Redu- 
ced Instruction Set Computer). 


Sei bus e 100 ns di ciclo istruzione 
per National LM 32900 


Il DSP LM 32900 segna I’ingresso di- 
National nel mercato dei digital signal 
processor. Si caratterizza per l’elevato 
numero di bus esterni (figura 2) (sei) e 
per l’elevata velocita di esecuzione del 
ciclo istruzione. 

LM 32900 utilizza una architettura 
Harvard completa, ovvero le due me- 
morie dati (64K x 16) e la memoria 
programmi (64K x 28) risultano com- 
pletamente separati dal punto di vista 
dell’accesso, non solo internamente, 
ma anche esternamente. Non esiste 
dunque condivisione di bus. La me- 
moria dati ha un accesso diretto al 
moltiplicatore cosicché ad ogni ciclo 
istruzione é possibile moltiplicare due 
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Fig. 1 - Un digital signal processor 
richiede una architettura molto 
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un processo analogico. 
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Alimentazione +5 V 
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nuovi dati mentre in contemporanea 
si svolge il fetch della successiva istru- 
zione. 

I] chip realizza tre livelli di pipelining, 
anche eg per alcune istruzioni. 
Questi livelli sono: il fetch dell’istru- 
zione, la decodifica dell’istruzione e 
l’esecuzione dell’istruzione. Il quarto 
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livello di pipelining é@ l’operazione di 
accumulo nelle operazioni di moltipli- 
cazione e somma e nelle operazioni di 
moltiplicazione e sottrazione. Questa 
parallelizzazione fa si che nel tempo 
in cui sequenzialmente dovrebbe es- 
sere eseguita una istruzione, vengono 
eseguite tre operazioni, ovvero I’exe- 


cute della istruzione n, il decode della 
istruzione m+1 ed il fetch della istru- 
zione n+2. 

Operando ad un clock rate di 20 MHz, 
LM 32900 (figura 3) richiede memorie 
dati con capacita di accesso di 35 nse 
memorie programmi con 85 ns di tem- 
po di accesso. Tutto lo spazio di indi- 
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| tizzamento @ gestito in modo diretto 
senza alcuna segmentazione ed a pie- 
na velocita. Cid significa che, essendo 
| il moltiplicatore capace di ricevere 1 

due operandi contemporaneamente 

dalla memoria, la moltiplicazione di 

due variabili é ottenibile in soli 100 ns. 
| A supporto dell’indirizzamento — ge- 
| 





nerazione di indirizzi per Ja manipola- 
zione degli operandi — il chip dispone 
di una unita aritmetica dedicata solo 
all'indirizzamento ed operante su due 
regisiri da 16 bit. 

Una ulteriore caratteristica é la realiz- 
zazione esterna dello stack che rende 
praticarnente illimitato il nesting delle 
subroutine. A cid si affiancano i sei 


livelli di interruzione: non-maschera- 

bile, software single-step, software 
trap, input FIFO, input serial channel 
ed external, Ancora a supporto del- 
'indirizzamento il chip, oltre al pro- 
gram counter ed allo stack pointer, 
dispone anche di un repeat counter 
che permette di ripetere fino a a 
volte una istruzione senza implicare 
‘salti_e interruzioni di controllo del 
ciclo. 

Particolarita dell’aritmetica @ la moda- 
lita saturazione che pud essere attiva- 
ta o disattivata da programma. In pra- 
tica quando questa @ attiva, In caso di 
overflow aritmetico, il risultato viene 
forzato al massimo o minimo valore 
numerico in accordo con il segno. 
Questa modalita permette di simulare 
meciio i! comportamento dei sistem! 
analogici ed evita i tipici erron di 
wrap-around dovuti all’overflow arit- 
metico. 

Una particolarita di questo dispositivo 
é |'hardware di supporto che permette 
di realizzare buffer circolari. Quest 
sono particolarmente utili nel trattare 
blocchi di dati senza impegnare tem- 
po di calcolo nella generazione degli 
indirizzi. 

Nel 32900 ci sono due registri speciali 
detti width register (WA e WB). 
Ognuno di questi genera una parola 
mascherata su n bit (n compreso tra 0 
e 15) in modo da rendere automatica- 
mente sicuro che |’indirizzamento av- 
viene nell'ambito della memoria pre- 
vista per il buffer circolare. In pratica il 
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Fig. 3 - Architettura del LM 32900 
della National. 







a es ee ee ee 





Architettura a pipeline 
circolare 
per l’elaborazione di 
| immagini 


NEC ha recentemente introdotto il 
uPD 7281, un processore di imma- 
gini con architettura pipeline circo- 
lare, operante ad elevatissima ve- 
locita per applicazioni come la rico- 
struzione di immagini, la compres- 
sione di immagini, il riconoscimen- 
to di forme, ecc. In particolare il 
7281 utilizza una architettura to- 


ca il codice oggetto nella Link Ta- 
ble e nella Function Table del 7281 
utilizzando per questo dei token 
(gettoni) opportunamente format- 
tati. Inoltre possono essere inviate 
le costanti da memorizzare nella 
Data Memory. Il contenuto della 
Link Table e della Function Table 
sono strettamente legati alla se- 
quenza computazionale. 

Grazie alla nuova architettura 
adottata non solo é possibile ope- 
rare in multiprocessing reale, ma 
anche ottenere una elevata effi- 
cienza computazionale. Per esem- 
pio, mentre l’ALU é attiva, in una 
Operazione aritmetica viene con- 
temporaneamente realizzato il cal- 
colo degli indirizzi per l’accesso 
alla memoria interna, vengono rea- 
lizzate operazioni di lettura/scrittu- 
ra, vengono realizzate operazioni 
di ingresso/uscita. Inoltre, contra- 
riamente ad altre architetture, il 
7281 non ha bisogno di estrarre 


istruzioni (fetch), di realizzare su- 
broutine (stack), o trasferimenti di 
dati tra registri. Quindi, non spre- 
ca il tempo normalmente richiesto 
da tali operazioni. 

I] pipeline circolare é realizzato con 
cinque blocchi funzionali: Link Ta- 
ble (LT), Function Table (FT), Data 
Memory (DM), Queue (Q) e Pro- 
cessor Unit (PU). Un gettone (de- 
scrizione del processo di elabora- 
zione), introdotto attraverso |'In- 
put Controller (IC), viene passato 
all’anello. In questo esso potra 
essere processato (circolare) nell’a- 
nello il numero di volte necessario. 
Al termine, verra trasferito in usci- 
ta attraverso l'Output Controller 
(OC). 

Il 7281 é@ inoltre facilmente configu- 
rabile in un sistema multi-unit. Nel 
seguito vengono riportate le pre- 
stazioni per 1 solo 7281 e 3 7281 
connessi insieme per l'elaborazio- 
ne del medesimo processo: 





ken-based per il flusso dei dati che 


Ai ae Operazione 1X7281 3X7281 Note 
insieme all’architettura pipeline Stasione 155 0.65 512x512 bit 
cinaiane. Gansente Sf eters We Smoothing 11s 0.4 s 512x512 bit 
elevatissimo throughput rate. Conv. 3x3 3.0 5 l.ls 512512 grey 
Il dispositivo consiste di 10 blocchi 64tap FIR 50 us 18 us 17 bit prec. 
funzionali. Prima di iniziare |’ela- cos(x) 40 us 15 us 33 bit prec. 


borazione, il processore host scari- 





width register memorizza la potenza 
di due della dimensione del buffer, 
mentre I|’indirizzo di partenza viene 
caricato in un registro di uso generale, 
diventando questo in tal modo il pun- 
talore al buffer circolare. 


I ee Re EY TE ae FE OE EE TT TT A eee 
Oe 


 ODB,, - ODS, ek 
IDB,, - IDB, saat Il valore di incremento e decremento 
iREO is de] puntatore @ dato nell’istruzione. 
OACK 


Tack La circolarita viene ottenuta grazie al 


fatto che il valore di incremento o 
decremento del prntatore viene som: 
mato solo agli n—] bit meno significa- 
tivi mentre gli altri in pratica rimango- 
no inalterati. Cid significa che, quan- 
do si verifica un overflow oltre il bit 
n-1, il fenomeno interessa solo tali 
n—] bit, mentre gli altri piu significati- 
vi rimangono inalterati. Cid comporta 
un automatico roll-over da uno dei 
due limiti del buffer all’altro. 


LL 





CIRCULAR PIPELINE 


* Coane. Gr 2089 See | Oe ee Meee ee 


Floating-point su singolo chip 
con il OSP 7723C Moc 
Con Il’introduzione del primo single- 
chip digital signal processor dotato di 


aritmetica interna a 32 bit, in virgola 
mobile, NEC ha praticamente aperto 


we my © 


Image Pipelined Processor 
NEC pPD 7281. 
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o 
— BARREL SHIFTER 
i 
la fascia alta delle applicazioni di digi- PY PLOATING-POWT 
tal signal processing alla soluzione | | | er 
monolitica. 
I] uPD 77230 (figura 4) denominato 
Advanced Signal Processor (ASP), uti- - ee ee 
lizza una memoria con parola da 32 bit 
per la memorizzazione dei dati floa- & prone si erent 
ting-point. Tale dimensione di parola ss REGISTERS 55 
é inoltre estesa anche all’I/O ed agli 
ingressi del moltiplicatore. I] moltipli- 
catore, i registri e l’ ALU sono comun- 
> caratterizzati da una lunghezza di | | 
que caratterizzau ca un 5 Fig. 4 - Architettura del \ 


arola di 55 bit in uscita. ll floating 54 dolla 
Foint @ un 32 bit standard IEEE (24-bit eee 
di mantissa e 8-bit di esponente). 
Continuando secondo la filosofia del 
precedente 7720, la NEC, utilizzando 
la tecnologia CMOS a 1.75 1, ha inte- 
grato ben 370.000 transistor per la 
realizzazione del 77230 ottenendo cosi 
| 


| un DSP caratterizzato da un tempo di 
ciclo istruzione di 150 ns. 
L’elevata densité di integrazione ha 
consentito di realizzare oltre al molti- 
plicatore ed all’ALU floating point, 
anche ampi spazi di memoria come 
una RAM dati di 1K xX 32 bit, una 
ROM dati di 1K x 32 bit ed una ROM 
istruzioni di 2K x 32 bit. La capacita 
globale di indirizzamento e comunque 
di 4K per le istruzioni e di 8K per 1 
dati. 
Una ulteriore particolarita di questo 
chip @ la sua capacita di operare in 
modalita master ed in modalita slave 
(figura 5). Operando in modalita 
master il chip dispone in pieno di 
tutte le sue potenzialita. In modalita 
slave invece il bus dati esterno da 32 
bit passa a 8 bit. In pratica si comporta 
come un bus locale. Per interfacciarsi 
ad un host o ad un master puo essere 
utilizzata una porta di V/O a 16 bit. 
Quindi risultano particolarmente faci- 
litate le implementazioni multi pro- 
cessor senza alcuna diminuzione nelle 
prestazioni globali. 
Esiste anche una versione fixed point 
chiamata 77220 caratterizzata da costo 
e dissipazione inferiori rispetto alla 
versione 77230. L’aritmetica fixed- 


MASTER 
ASP 





Fig. 5 - Configurazione 
multiprocessore di tipo 
Master/Slave per l'ASP 77230. 
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point @ a 24 bit in quanto derivata 
dalla parte del moltiplicatore floating 
point operante sulla mantissa. Infatti 
il 77230 prevede anche di operare in 
modalita fixed point. 


ADSP-2100: 
24 bit di istruzione e |25 ns 


Con l’ADSP-2100 Analog Devices en- 
tra nell’arena dei digital signal pro- 
cessor monolitici. Caratteristica es- 
senziale di questo dispositivo nei 
confronti degli altri é€ la completa 
assenza on-chip di memoria, sia per i 
dati che per i programmi. Questa é 
stata una deliberata scelta dei proget- 
tisti dell’Analog Devices per ottenere 
la piu elevata potenza computaziona- 
le possibile. : 

Ii ciclo istruzione di ADSP-2100 é 
infatti molto veloce, 125 ns per I’ese- 
cuzione di istruzioni da 24 bit. 

I] potenziamento computazionale 
comprende un full-function barrel 
shifter per supportare le operazioni 
aritmetico-logiche. Due unita aritme- 
tiche sono dedicate esclusivamente 
alla generazione degli indirizzi. Per il 
program sequencer e poi prevista-la 
modalita di ripetizione di cicli di pro- 
grammi senza impegnare istruzioni 
di salto e controllo. Per la rapida 
commutazione di contesto sono stati 
realizzati numerosi registri dati di 
background. 

Una particolarita @ rappresentata dal 
linguaggio di programmazione. 
L’'ADSP-2100 dispone di un linguag- 
gio esprimibile sia in notazione as- 
sembler che in notazione algebrica. 
La notazione algebrica é interessante 
per la particolare semplicita di scrittu- 
ra e l’elevata leggibilita: 

Per esempio la programmazione di 
un filtro FIR si riduce alla stesura di 
solo 8 istruzioni scritte in un linguag- 
gio ad alto livello simile a C. 

Grazie alla cache memory presente 
sul chip, € possibile tenere memoria 
dell’esecuzione delle istruzioni prece- 
denti. Quando il programma inizia 





Y ous ae 2 ee ot 6 





DATA ROM 
(512 « 16 BITS) 


OATA RAM B 


(128 + 16 BITS) 








DATA MEMORIES.AND ADDRESS 
COMPUTATION UNITS (ACU,} 


Fig. 6 - Architettura del DSP 
della Philips. 





un ciclo, nella cache memory vengo- 
no ricopiate le istruzioni relative, co- 
sicché, dopo il primo ciclo, le stesse 
non vengono piu lette dalla memoria, 
e quindi i bus esterni restano liber: 
per il trasferimento dati. In tal modo 
il fetch dei dati diventa completa- 
mente parallelo a quello delle istru- 
zioni. Tenendo conto che il digital si- 
gnal processing fa ampiamente uso 
dei cicli ripetitivi, tale soluzione vede 
risolvere soddisfacentemente il pro- 
blema dell’accesso esterno su un uni- 
co canale di istruzione e dati. 


48 MIPS caratterizzano il DSP 
della Philips 


Realizzato in tecnologia CMOS, il 
DSP della Philips (figura 6) esegue 
una istruzione ogni 125 ns sfruttando 
un elevato parallelismo, il che porta 
ad un throughput globale di 48 milio- 
ni di istruzioni per secondo (MIPS). 

Innovazione fondamentale in questo 
dispositivo @ l’introduzione di un 
doppio bus dati all’interno del chip. 
Considerando che la maggior parte 
delle operazioni del digital signal 
processing sono a piu operandi, la 
possibilita di poter fare il fetch di due 
dati allo stesso tempo consente in 
pratica di dimezzare i tempi di esecu- 
zione. Per esempio, anche se il molti- 
plicatore opera a tempo di ciclo istru- 
zione, in pratica dovendo caricare i 
due operandi all’ingresso del molti- 
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plicatore @ necessario un ciclo 
aggiuntivo. Nel caso del dispositive 
della Philips i due operandi possono 
essere estratti nel medesimo ciclo in 
cui viene attivata la molliplicazione 
Stessa. Il prodotto e quindi disponibi- 
le in un solo ciclo istruzione. Consi- 
derando l enorme mole di operazioni 
di questo tipo implicate nel digital si- 
gnal processing i! DSP Philips rivsce 
ad ottenere la potenza computaziona- 
le necessaria ad affrontare anche le 
applicazioni pitt complosse. 
Globalmente il livello di parallelismo 
€ particolarmente elevato in-questo 
dispositivo. Una singola istruzione 
puvu artivare ad eseguire fino a 6 ore- 
razioni diverse simultaneamente. In 
pratica gli 8 MIPS apparenti del D5i’ 
equivalgono a 48 MIPS di un micro- 
processore tradizionale dolato di por 
velocita di esecuzione delle istru- 
zioni. 

I] doppio bus collega in parallelo le 
cinque funzioni fondamentali de! 
chip: moltipicatore a 16 bit, accumu- 
latore a 40 bit, una ALU abbinata ad 
un file di registri multiporta e la logi- 
ca per la generazione degli indirizzi ¢ 
la memoria dati. 


Elevata velocita e bassa 
dissipazione per Fujitsu MBL 8764 


Peculiarita essenziale del MBL 8764 
(figura 7) é la velocita. La sua capaci- 
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; ta di eseguire una moltiplicazione 
| con accumulo in soli 100 ns permette 
| di realizzare applicazioni complesse 
; come FFT (nota per l’elevato volume 
| di moltiplicazioni richiesioj in temp) 
| ridotti. Queste prestazioni aritmeti- 
' che sono oltenute grazie ad una 
| hardware particolarmente curato ne- 
| yli aspetii reiativi al pipelining e pa- 
| rallelismo. La moltiplicazione viene 
| realizzata grazie ad un moltiplicatore 
parallelo a due stadi. Opera su due 
registri di ingresso A e B da 16 bit per 
vudurie un risuliato temporaneo da 
| 32 bit (TRO e TR1). Se si tratta di una 
; semplice Operazione di prodotto allo- 
ia il risuliato viene trasferito con ar- 
rotondamento nell’accumulatore (24 
bit). Se invece si tratta di prodotto 
con accumulo, allora viene implicata 
| anche I’ ALU. 

| In realta il moltiplicatore richiede due 
cicli per operare, ma, grazie alla 
struttura pipeline a due stadi, mentre 
il moltiplicatore passa al secondo sta- 
dio, & possibile caricare nuovamente 1 
due registri A e B. Cosi il tempo reale 
di una sequenza di moltiplicazioni 
con accumulo risulta di fatto di soli 
100 ns. 

Un‘altra peculiarita di questo disposi- 
tivo ¢ la elevata capacita di multipro- 
cessing (fino ad 8 dispositivi in paral- 
lelo). Operando pero su un unico bus 
comune, l’efficienza globale viene ot- 
tenuta grazie ad uno speciale registro 
dedicato esclusivamente all’indirizza- 
mento. 


Riconfigurazione dinamica 
della memoria per TMS 32020 


Pur continuando ad adottare Il’archi- 
tettura Harvard modificata, la T.1. 
con il TMS 32020 ha introdotto una 
Innovazione | rispello al precedente 
IMS 32010 che consente di sfruttarne 
meglio i vantaggi. Si tratta della solu- 
zione IDSER (Internal Dual Single Ex- 
ternal Reconfigurable). In pratica il 
TMS 32020 consente di contigurare, 
per via software, la RAM interna o 
come RAM dati o come RAM pro- 
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Fig. 7 - Architettura de! DSP 
MBL 8764 Fujitsu. 
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grammi. In quest’ultimo caso I’elabo- 
razione @ piu efficiente in quanto le 
aree dati e programmi utilizzano bus 
di indirizzamento completamente se- 
parati (figura 8). 

Le istruzioni sono CNFD (Configure 
Block as Data Memory) e CNFP 
(Configure Block as Program Memo- 
ry). Ovviamente, essendo dinamica 
(run-time) la riconfigurazione, si pre- 
senta il problema di trasferire veloce- 
mente blocchi di programma dall’e- 
sterno verso Il’interno de! dispositivo. 
A tale proposito, per non perdere in 
efficienza, sono state realizzate istru- 
zioni di trasferimento dati e istruzioni 
a blocchi. 

Con. il TMS 320C25, 
CMOS pin-to-pin 


la versione 
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Alta precisione e affidabilita 


Fabbricato nello zaffiro con una precisione da microni: 
pistoni insensibili agli agenti chimici, indeformabili, indis- 


truttibili. 


compatibile del 
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AL MICROPROCESSORE 


MEMORIE 
GLOBAL! 


Fig. 9 - Una stazione 
di visualizzazione 
grafica basata su 
TMS 320C25. 


TMS 32020, la T.1. affianca alle eleva- 
te prestazioni derivate dall’architettu- 
ra particolarmente avanzata che ca- 
ratterizza 1 DSP della famiglia 320, la 
velocita di esecuzione del ciclo istru- 
zione che nel TMS 320C25 é di soli 
100 ns. Una particolarita @ anche la 
ricomparsa della Program ROM on 
chip gia presente su 32010 ma assen- 
te nella versione 32020 (4 kword di 
ROM mascherabile). Altre particolari- 
ta sono gli otto registri ausiliari, gli 
otto livelli di stack hardware, doppio 
buffering completamente statico della 


‘porta seriale, DMA concorrente, mo- 


dalita di indirizzamento comprenden- 
te il bit-reversing particolarmente uti- 
le a velocizzare la FFT, moltiplicazio- 


CORSO COMPLETO DI 


ISTRUZIONE 
384 pagine. 


Un prodotto d’alta prestazione destinato segnatamente 
alle pompe di microdosaggio per cromatografi. Esecu- 
zione secondo le specificazioni dell’utente. 


Nuove prospettive per i materiali 
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Con 2 floppy disk IBM 
Cod. PP 281L. 90.000 


am 
MEMORIE SHIFT 
VIDEO REGISTER 


ne con accumulo da memoria pro- 
grammi esterna, modalita di power 
down, aritmetica a precisione estesa 
ed assoluta novita, istruzioni dedica- 
te allo sviluppo di filtri adattativi. 

Tutte queste nuove caratteristiche, 
insieme al quasi dimezzamento del 
ciclo istruzione, permettono al TMS 
320C25 di velocizzare sufficientemen- 
te gli algoritmi tanto da penetrare 
nella fascia delle applicazioni veloci 
cui i DSP monolitici sono stati fino ad 
ora estranei: PABX, grafica ed image 
Processing (figura 9) per realizzazio- 
ne di workstation grafiche e per ap- 
plicazione di visione nell’automazio- 
ne, controllo veloce in applicazien: di 
controllori di dischi e robotica. F 
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